Introduzione alla programmazione Triton: Il modello di esecuzione parallela: Pensare in blocchi

Passare dalla programmazione CPU seriale alla programmazione GPU richiede un cambiamento di paradigma: dal ciclo elemento per elemento all' esecuzione basata su blocchi. Non vediamo più i dati come una sequenza di scalari, ma come raccolte di "blocchi" pianificate per sfruttare al massimo la larghezza di banda dell'hardware.

1. Limitato dalla memoria vs. Limitato dal calcolo

Il collo di bottiglia di un kernel è determinato dal rapporto tra operazioni matematiche e accessi alla memoria. L'addizione vettoriale è spesso limitata dalla memoria perché esegue solo un'addizione ogni tre operazioni di memoria (2 cariche, 1 salvataggio). L'hardware trascorre più tempo ad aspettare il DRAM che a calcolare.

2. Il ruolo di BLOCK_SIZE

BLOCK_SIZE definisce la granularità del parallelismo. Se è troppo piccolo, non sfruttiamo appieno le ampie pipeline di esecuzione della GPU. Una dimensione ottimale garantisce abbastanza "lavoro in corso" per saturare la banda della memoria.

3. Nascondere la latenza tramite occupazione

Occupazione è il numero di blocchi attivi sulla GPU. Sebbene non sia l'obiettivo finale, permette al pianificatore di inserire un nuovo blocco per eseguire calcoli mentre un altro attende il recupero dei dati da VRAM con latenza elevata.

4. Utilizzo dell'hardware

Per massimizzare le prestazioni, dobbiamo allineare il nostro BLOCK_SIZE con le regole di raggruppamento della memoria dell'architettura GPU, assicurando che thread consecutivi accedano a indirizzi di memoria consecutivi.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.